package com.zyx.crawlerdemo.jsoup.jsoupparse;

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

/**
 * @author Yaxi.Zhang
 * @since 2021/8/12 09:47
 * desc: Jsoup解析URL文本案例
 */
public class JsoupParseUrlDoc {
	public static void main(String[] args) throws IOException {
		//获取URL对应的Document
		Document doc = Jsoup.connect("http://www.********.com.cn/b.asp").timeout(5000).get();
		// 基于CSS选择器获取元素,也可写成[id=w3]
		Element element = doc.select("div[id=w3]").get(0);
		//从Element提取内容(抽取一个Node对应的信息)
		String text1 = element.select("h1").text(); 
		//从Element提取内容(抽取一个Node对应的信息)
		String text2 = element.select("p").text(); 
		System.out.println("抽取的文本信息为:");
		System.out.println(text1 + "\t" + text2);
	}
}
